5 research outputs found

    Byte-Level Grammatical Error Correction Using Synthetic and Curated Corpora

    Full text link
    Grammatical error correction (GEC) is the task of correcting typos, spelling, punctuation and grammatical issues in text. Approaching the problem as a sequence-to-sequence task, we compare the use of a common subword unit vocabulary and byte-level encoding. Initial synthetic training data is created using an error-generating pipeline, and used for finetuning two subword-level models and one byte-level model. Models are then finetuned further on hand-corrected error corpora, including texts written by children, university students, dyslexic and second-language writers, and evaluated over different error types and origins. We show that a byte-level model enables higher correction quality than a subword approach, not only for simple spelling errors, but also for more complex semantic, stylistic and grammatical issues. In particular, initial training on synthetic corpora followed by finetuning on a relatively small parallel corpus of real-world errors helps the byte-level model correct a wide range of commonly occurring errors. Our experiments are run for the Icelandic language but should hold for other similar languages, particularly morphologically rich ones

    Brennandi þolinmæði. Þýðing úr spænsku á skáldsögunni Ardiente paciencia eftir chileska rithöfundinn Antonio Skármeta og rannsókn á myndhvarfaþýðingum

    No full text
    Verkefni þetta er í tveimur hlutum og felst annars vegar í íslenskri þýðingu úr spænsku á skáldsögunni Ardiente paciencia eftir chileska rithöfundinn Antonio Skármeta, sem hlotið hefur titilinn Brennandi þolinmæði, og er hins vegar rannsókn á þýðingum myndhvarfa (e. metaphor) með hliðsjón af þýðingunni. Kenningar um myndhvörf eru af ýmsum toga og fjallað hefur verið um þau sérstaklega innan þýðingafræði þar sem þau skapa óhjákvæmilega vandamál við þýðingar. Myndmál er iðulega fastbundið menningu sérhvers staðar og ef þýða á texta milli mismunandi menningarheima kemur einatt upp sú staða að ekki sé notað sama myndmál í frummáli og markmáli. Til að geta betur greint þennan menningarlega mismun kemur að gagni að þekkja til hugrænna fræða (e. cognitive science) um hugtakamyndhvörf (e. conceptual metaphor). Innan hugrænna fræða er myndhvörfum lýst sem mun mikilvægara fyrirbæri en almennt hefur verið talið þar sem þau móti hugsun mannsins og sýn hans á heiminn. Ef hugrænar kenningar um myndhvörf eru nýttar til greiningar á myndmáli frumtexta fjölgar möguleikum við þýðingar þar sem þýðanda verður betur ljós sá munur sem verið getur á myndhvarfakerfum menningarheima. Þýðing á skáldsögunni Brennandi þolinmæði er hér greind í ljósi hugrænna kenninga um myndhvarfaþýðingar, enda einkennir skáldsöguna mikil og meðvituð notkun myndmáls. Það er áberandi jafnt í máli sögupersóna sem og í öllum lýsingum og hefur jafnvel áhrif á framvindu sögunnar. Ákvarðanir sem teknar voru við myndmálsþýðingar eru því í aðalhlutverki í greiningu á þýðingarferlinu. Samkvæmt hugrænum kenningum um myndhvörf ræður munur á menningarheimum þýðanleika myndhvarfa og styður greiningin þá kenningu

    Named entity recognition for Icelandic : annotated corpus and neural models

    No full text
    Málheildin er aðgengileg á http://www.malfong.is/?pg=mim_gold_nerNamed entity recognition (NER) is the task of automatically extracting and classifying the names of people, places, companies, etc. from text, and can additionally include numerical entities, such as dates and monetary amounts. NER is an important preprocessing step in various natural language processing tasks, such as in question answering, machine translation, and speech recognition, but can prove a difficult task, especially in highly-inflected languages where each entity can have many different surface forms. We have annotated all named entities in a text corpus of one million tokens to create the first annotated NER corpus for Icelandic, containing around 48,000 named entities. The data has then been used for training neural networks to annotate named entities in unseen texts. This work consists mainly of two parts: the annotation phase and the neural network training phase. For the annotation phase, gazetteers of Icelandic named entities were collected and used to extract and classify as many entities as possible. Regular expressions and other heuristics were also applied in this preprocessing step. These pre-classified results were then manually reviewed. The corpus, MIM-GOLD, is a tagged and balanced Icelandic corpus sampled from thirteen different text types, containing a variety of named entities. The entity types that have been annotated are: Person, Location, Organization, Miscellaneous, Date, Time, Money, and Percent. In the neural model training phase, a bidirectional LSTM recurrent neural network was trained on the annotated corpus, using word embeddings trained from a larger text source as external input. We trained on different sizes of the corpus, to gain an understanding of how increasing corpus sizes affects the results. We report an F1 score of 83.65% for all entity types when trained on the whole corpus. Experiments with different corpus sizes show a clear advantage in using the whole dataset, but viable results can also be obtained from smaller training sets. The different corpus text genres also allow for selecting the domains that best fit the purpose of the application each time. The corpus and models will be made publicly available, and we hope they will help in moving the rapidly developing Icelandic language technology field even further.Nafnakennsl („named entity recognition“), er svið innan máltækni sem felst í því að finna og flokka sérnöfn, þ.e. nöfn á fólki, stöðum, fyrirtækjum o.fl. með sjálfvirkum hætti. Stundum eru enn fremur flokkaðar ýmsar tölulegar einingar, svo sem dagsetningar og upphæðir. Nafnakennsl eru eitt af grunnverkfærum máltækni og mikilvægt skref fyrir ýmis viðfangsefni hennar, svo sem spurningasvörun, vélþýðingar og talgreiningu. Þetta er þó ekki einfalt verkefni, sér í lagi þegar um er að ræða beygingamál eins og íslensku þar sem hvert sérnafn getur haft margar birtingarmyndir. Hér er kynnt mörkun á öllum sérnöfnum og ýmsum tölulegum einingum í milljón orða málheild, Gullstaðlinum. Þetta er fyrsta íslenska nafnakennslamálheildin, og inniheldur yfir 48.000 nafnaeiningar. Þessi nýju gögn hafa enn fremur verið notuð til þjálfunar á tauganetslíkönum til þess að finna og flokka nafnaeiningarnar í áður óséðum texta. Verkefnið er tvíþætt: annars vegar snýst það um mörkun málheildarinnar, hins vegar um þjálfun tauganetslíkananna. Við mörkunina var notast við reglulegar segðir og ýmsa lista með íslenskum sérnöfnum til að flokka sem flest nöfn í textanum sjálfvirkt, áður en öll milljón orðin voru lesin yfir til að tryggja rétta mörkun. Gullstaðallinn, sem notaður var sem grunnur að þessari nafnakennslamálheild, er mörkuð og jafnvæg („balanced“) málheild sem samanstendur af þrettán textaflokkum þar sem fjölbreytt sérnöfn koma fyrir. Þær nafnaeiningar sem markaðar voru í málheildinni eru eftirfar- andi: Person, Location, Organization, Miscellaneous, Date, Time, Money og Percent. Í þjálfunarfasanum voru tauganet af gerðinni „bidirectional LSTM RNN“ þjálfuð á nafnakennslamálheildinni. Að auki var notast við orðavigra forþjálfaða á mun stærri málheild sem viðbótarinntak. Málheildinni var skipt upp í mismunandi þjálfunarstærðir, til þess að komast að því hvernig niðurstöður þróast með meiri gögnum. Niðurstöðurnar úr þjálfun með stærsta þjálfunarsettinu á öllum flokkum gefa 83,65% F1. Tilraunir með þjálfun á mismunandi stærðum sýna að meiri gögn skila betri árangri, en að einnig má þjálfa með minna magni af gögnum, eða jafnvel ákveðnum textaflokkum og fá frambærilegar niðurstöður. Málheildin og líkönin verða gerð opinber og munu vonandi koma að gagni í einhverjum þeirra fjölmörgu verkefna sem nú eru í vinnslu á sviði íslenskrar máltækni.Markáætlun í tungu og tækni 2019, styrknúmer 180027-5301

    Nafnaþekkjari – íslensk frumgerð

    No full text
    Nafnaþekkjari finnur og flokkar sérnöfn í texta. Hann er eitt af grunnverkfærum máltækni, einkum við þróun hugbúnaðar til upplýsingaútdráttar. Hér er kynnt til sögunnar frumgerð að íslenskum nafnaþekkjara sem er útfærður með gervitauganeti. Forsenda þjálfunar á slíkum netum er að til sé málheild þar sem sérnöfn eru auðkennd og rétt flokkuð. Slík þjálfunarmálheild hefur ekki verið til fyrir íslensku og var gerð hennar hluti af þessu verkefni. Við útfærslu nafnaþekkjarans var notuð tilbúin lausn sem kallast NeuroNER og er sérstaklega hönnuð með sérnafnaflokkun í huga. Niðurstöðurnar benda til þess að þetta sé raunhæf aðferð til að greina sérnöfn í íslensku (F1=81,3%), sérstaklega með tilliti til þess að þjálfunarmálheildin er ekki stór. Orðavigrar búnir til úr mun stærri málheild reyndust bæta niðurstöðurnar mjög, og eru verðugt rannsóknarefni.A named entity recogniser finds named entities (proper nouns) in a text, and labels them by category. It is a fundamental tool in natural language processing, in particular in the development of information extraction systems. In this paper, we present a prototype of a named entity recogniser for Icelandic, based on artificial neural networks. The training of such networks requires a textual corpus where named entities have been labelled. As no such corpus exists for Icelandic, its creation is a subject of this project. The recogniser was built using NeuroNER, a software package designed for named entity recognition. The results indicate that this is a viable approach towards recognition of named entities in Icelandic (F1=81.3%), especially considering the moderate size of the training corpus. Word embeddings, created from a much larger unlabelled corpus, turned out to improve the results greatly, warranting further study
    corecore